Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Codificación de la voz (Powerpoint) (página 2)




Enviado por Pablo Turmero



Partes: 1, 2, 3

Monografias.com

Muestreo y cuantificación
Creación del codebook: (con N codevectors)

Dada una secuencia de entrenamiento (siendo cada muestra xi k-dimensional):

Sea el codebook:

Monografias.com

Codificadores de voz: clasificación
Los codificadores de voz pueden dividirse en 3 grupos:

Codificadores de forma de onda
Conservan la forma de onda de la señal
Calidad alta: 16 – 64 kbps

Vocoders (codificadores paramétricos)
Explotan la naturaleza de la señal de voz para reducir el bitrate
Calidad baja/media: 1.2 – 4.8 kbps

Codificadores híbridos
Mezcla de los dos anteriores
Calidad media/alta: 2.4 – 16 kbps

Monografias.com

Codificadores de forma de onda
Estos codificadores pueden clasificarse en dos grupos según el dominio en el que trabajan:

En el dominio del tiempo:
PCM, LogPCM, DPCM, ADPCM, etc…

En el dominio de la frecuencia:
Codificación por subbandas
Codificación por transformada

Monografias.com

Codificadores: dominio del tiempo
PCM:
Cuantificador uniforme
No aprovecha la FDP de la señal
Óptimo solo si FDP es uniforme
(Gp:) Muestreo
(Gp:) Q
(Gp:) Codificación

Monografias.com

Codificadores: dominio del tiempo
DPCM, PCM diferencial:
La potencia del error de cuantificación es proporcional a la potencia de la señal
Reducir pot. de la señal ? reducir pot. ruido
Emplearemos un predictor:
Cuantificamos la señal de error
(Gp:) Codificador
(Gp:) +
(Gp:) Q
(Gp:) Codificador
(Gp:) +
(Gp:) P
(Gp:) x[n]
(Gp:) x[n]
(Gp:) x[n]
(Gp:) ê[n]
(Gp:) e[n]
(Gp:) c[n]
(Gp:) ^
(Gp:) ~

Monografias.com

Codificadores: dominio del tiempo
DPCM: PCM Diferencial

(Gp:) Decodificador
(Gp:) +
(Gp:) Decodificador
(Gp:) P
(Gp:) x[n]
(Gp:) x[n]
(Gp:) c[n]
(Gp:) ^
(Gp:) ~
(Gp:) e[n]
(Gp:) ~

Monografias.com

Codificadores: dominio del tiempo
ADPCM: PCM Diferencial Adaptativo
DPCM + adaptación del tamaño de los niveles del cuantificador
Estándar G.721 ? ADPCM 32 kbps
(Gp:) Codificador
(Gp:) +
(Gp:) Q
(Gp:) +
(Gp:) P
Adaptativo
(Gp:) x[n]
(Gp:) Ajuste
tamaño
escalón
(Gp:) Ajuste
tamaño
escalón
(Gp:) P
Adaptativo
(Gp:) +
(Gp:) Q
Inverso
(Gp:) Decodificador

Monografias.com

Codificadores: en frecuencia
Hay dos tipos dependiendo de la forma de obtener el espectro:

Codificación por subbandas
Dividen la señal en N bandas de frecuencia por medio de un banco de filtros paso banda

Codificación por transformada
Calculan el espectro mediante una transformada (Fourier, coseno, etc…)

Monografias.com

Codificadores: en frecuencia
Codificación por subbandas:
Banco de filtros QMF (generalmente de 4 a 8)
Cada banda puede emplear más o menos bits
Ruido de cuantificación: confinado en cada banda
PCM, DPCM, ADPCM, …
(Gp:) FPB1
(Gp:) FPBn
(Gp:) n:1
(Gp:) n:1
(Gp:) Diezmado
(Gp:) x[n]
(Gp:) x1[n]
(Gp:) xn[n]
(Gp:) 1:n
(Gp:) 1:n
(Gp:) FPB1
(Gp:) FPBn
(Gp:) +
(Gp:) Interp.
(Gp:) y[n]

Codificar
Decodificar



Monografias.com

Codificadores: en frecuencia
Codificación por transformada:
Es necesario trabajar por bloques
Ventanas…

Se calcula el espectro de cada bloque y se cuantifica el espectro, no la señal temporal

El decodificador reconstruye el espectro y calcula la transformada inversa

Generalmente se emplea la transformada discreta de coseno ya que condensa mejor los coeficientes

Monografias.com

Vocoders
Se basan en el modelo simplificado de producción de voz
Explotan las características de la voz
Codificador:
Calcula los parámetros del modelo
Transmite los parámetros al decodificador
Decodificador:
Reconstruye la señal de voz a partir de los parámetros
Permiten tasas binarias muy bajas
Consiguen inteligibilidad pero no naturalidad.

(Gp:) Análisis
(Gp:) Síntesis
(Gp:) Voz
(Gp:) Voz
(Gp:) Parámetros

Monografias.com

Vocoders
Modelo de producción:
(Gp:) Excitación
Periódica
(Gp:) Ruido
Aleatorio
(Gp:) Pitch
(Gp:) Envolvente
espectral
(Gp:) G
(Gp:) Parámetros
Espectrales
(Gp:) Voz

Un único modelo ? Varios vocoders

Monografias.com

Vocoder LPC
Vocoder de predicción lineal

El codificador trabaja por segmentos:
Frecuencia fundamental (F0 o pitch)
Decisión sonoro/sordo (incluido en pitch)
Coeficientes LPC
Factor de ganancia

El decodificador sintetiza la voz empleando los parámetros

Monografias.com

Vocoder LPC
Vocoder LPC vs DPCM

Ambos emplean predicción lineal

DPCM envía el error muestra a muestra
El vocoder solo envía los parámetros del modelo
Para obtener la señal de error emplea el pitch o un ruido blanco (sonoro/sordo)

La calidad de la voz sintética del vocoder es muy inferior
El vocoder tiene una tasa binaria mucho menor

Monografias.com

LPC-10
Diseñado por el DOD estadounidense (1976)
Permite la codificación de la señal de voz a 2400 bps

Emisor
Análisis
LPC
Voz
FPB
Filtro Inverso
LPC 2º Orden
AMDF
Pitch
Detector
Sonoridad
Corrector
Pitch
Codificación
RC’s y RMS

Monografias.com

LPC-10
Receptor
(Gp:) Excitación
Periódica
(Gp:) Generador
Ruido
(Gp:) Pitch
(Gp:) LPC
(Gp:) G
(Gp:) RC’s
(Gp:) Voz

RMS

Monografias.com

Codificadores híbridos
Combinan las técnicas de los codificadores de forma de onda con las de los vocoders

Intención: mejorar la calidad empleando bitrates bajos

Forma de mejorar la calidad:
Mejorar el modelo de la fuente
Sustituir el modelo de la fuente
Enviando el residuo (o parte de el) de alguna forma

A algunos de ellos se les conoce como codificadores de
“Análisis por síntesis”

Monografias.com

RELP

Residual-Excited LPC Vocoder
El filtro LPC quita la correlación entre muestras, pero no elimina toda la información útil
Esta información permanece en el error de predicción
Transmitiremos parte del residuo e intentaremos reconstruirlo por completo
Filtro
Inverso
LPC
Filtro
LPC
Residuo
Voz
Voz

Monografias.com

RELP

Información a transmitir:
Coeficientes del filtro LPC
Parte del residuo
Solamente se envía baja frecuencia
Se aplica un diezmado (~800 Hz)
Así se quitan muestras y se reduce el bitrate

Las altas frecuencias del residuo se “reconstruyen” en el decodificador generalmente aplicando un proceso no lineal:
Saturación
Énfasis en alta frecuencia
Adición de ruido
Etc…

Monografias.com

RELP

Diagrama de bloques del codificador:

(Gp:) Análisis LPC
(Gp:) Filtro Inverso
(Gp:) Diezmado
(Gp:) Mux

s[n]
LPC coefs
e[n]
e’[n]

Monografias.com

RELP

Diagrama de bloques del decodificador:

(Gp:) Síntesis LPC
(Gp:) Generación HF
(Gp:) Filtro PA
(Gp:) De-Mux
(Gp:) LPC coefs
(Gp:) e[n]
(Gp:) +
(Gp:) Interpolación
(Gp:) e’[n]

Monografias.com

MELP

Mixed Excitation LPC
La señal de excitación se genera como una mezcla de dos señales:
Ruido gausiano
Trenes de impulsos
Esta operación se realiza en varias bandas de frecuencia (entre 4 y 10 bandas distintas)
Se debe determinar el “grado de sonoridad” de la señal
Además se le aplica cierto Jitter a la señal para generar naturalidad.

Monografias.com

Codificación multipulso, MPC

Alimenta al filtro LPC con una serie pulsos sin tener en cuenta si la señal es sonora o sorda.
No aplica el modelo de fuente sonora.
Amplitudes
y posiciones
Síntesis LPC
Generador multipulsos
FPB
v[n]
s[n]
^
LPC coefs
Residuo reconstruido

Monografias.com

Codificación multipulso, MPC

Ejemplo de señal multipulso:
(Gp:) Residuo LPC Original
(Gp:) Excitación multipulso

Monografias.com

Codificación multipulso, MPC

Al no emplear el modelo de fuente sonora está libre de errores debido a:
El propio modelo de la fuente
Ej: Tramos mezcla sonoro/sordo
La estimación de los parámetros del modelo
Ej: Errores en la estimación del pitch

Mayor inconveniente:
Calcular las amplitudes y posiciones óptimas de la señal multipulso en cada caso
Dos opciones: bucle abierto y bucle cerrado

Monografias.com

Codificación multipulso, MPC

Cálculo de la señal multipulso: Bucle abierto
Relativamente sencillo
Filtro Inverso LPC
Análisis
LPC
Selección
de pulsos
Codificación y empaquetado
Residuo
Voz
Coefs. LPC
Amplitudes y
posiciones

Monografias.com

Codificación multipulso, MPC

Cálculo de la señal multipulso: Bucle cerrado
Más complejo pero mejor resultado (Análisis por Síntesis)
Análisis
LPC
Filtro
LPC
Generador
excitación
Minimización del error
+
Codificación y empaquetado
Voz
Error
Voz
sintética
LPC

Amplitudes y
posiciones

Monografias.com

Codificación multipulso, MPC

Mejoras que podemos realizar:

Implementar un predictor de retardo largo para blanquear aún más la señal de excitación

Solo tener en cuenta el error perceptible por el oído:
Añadir un filtro de ponderación perceptual

Monografias.com

Predictor a largo plazo

El pitch genera una correlación de retardo largo que no elimina el filtro LPC
Soluciones:
Aumentar el orden de la LPC (50 o más)
Aplicar otro predictor específico

Preferible: otro predictor

Necesitamos calcular el periodo del pitch y el valor del coeficiente del filtro
T: Periodo del pitch
b: coef. LPC de largo plazo

Monografias.com

Predictor a largo plazo

La señal estimada es:

Por tanto el error (cuadrático) cometido será:

Minimizando el error…
Autocorrelación
[Ec. 1]
[Ec. 2]

Partes: 1, 2, 3
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter